Analyse de Données

Introduction

Nous allons étudier un jeu de données immobilières. Il s’agit des ventes de logements à King County, compté contenant la ville de Seattle aux États-Unis. Ce jeu de donnée a été utilisé par un cours Coursera, il semblait tout à fait convenir à une introduction à diverses techniques de l’analyse et traitement de données, sachant l’extreme diversité des méthodes à utiliser, même pour des données modestes. Parmi les avantages de cet ensemble de données, déjà mise en forme, pas d’imputation de données nécessaires, peu de facteurs, une application possible d’une régression linéaire sans être obligé d’utiliser des modèles complexes.

L’objectif de ce projet est d’analyser l’ensemble de donnée avant de faire une modélisation par régression linéaire, cette analyse est une étape indispensable pour développer une intuition sur l’ensemble de données, et donc la création de modèle.

Variables du jeu de données

Les données correspondent aux logements vendus entre mai 2014 et mai 2015. Un logement est constitué d’une surface habitable et d’un terrain. À chacun de ces logements sont associés les 21 variables suivantes:

id
Identifiant du logement (ignoré pour l’analyse)
date
Date de vente du logement [Date]
price
Prix de vente [Continu]
bedrooms
Nombre de chambres [Discret]
bathrooms
Ratio entre le nombre de salle de bain et de chambre
sqft-living
Surface du logement (somme du sous-sol et étages supérieurs) [Continu]
sqft-above
Surface du logement située au dessus du sol [Continu]
sqft-basement
Surface du logement au niveau du sous-sol [Continu]
sqft-lot
Surface du terrain [Continu]
floors
Nombre d’étages dans la maison [Discret]
waterfront
Vue sur les quais [Binaire]
view
Nombre de fois le logement a été visité [Discret]
condition
Appréciation de l’état du logement [Factoriel]
grade
Évaluation de la qualité de construction du logement [Factoriel]
yr-built
Année de construction [Date]
yr-renovated
Année de rénovation [Date]
zipcode
Zipcode
lat
Lattitude [Coordonnées]
long
Longitude [Coordonnées]
sqft-living2015
Surface du logement en 2015 [Continu]
sqft-lot2015
Surface du terrain en 2015 [Continu]

Petite précision sur le facteur grade. Ce facteur est directement issu de l’administration de King County, en particulier pour la collecte d’impots. Elle établit une classification de 1 à 13 des logements de King County en fonction de la finition du logement. Cela permet d’avoir une vague idée sur la valeur du logement en tant qu’édifice. Il y a donc un ordre entre les niveaux de ce facteur. Néanmoins, ce facteur ne doit pas être pris comme une valeur entièrement objective, car il peut s’agir d’une estimation.

  • [1-3] Ne convient presque pas aux standard de construction. A priori une cabane.
  • [4] Généralement un édifice de mauvaise qualité ayant vielli. Ne rentre pas dans les standards.
  • [5] Peu cher et peu travaillé. Petit et simple.
  • [6] Plus petite catégorie qui est aux normes. Matériaux de mauvaise qualité, simplicité.
  • [7] Construction normale que l’on rencontre sur un terrain habité.
  • [8] Construction un peu mieux que la moyenne. Meilleurs matériaux dans les finitions.
  • [9] Meilleure architecture, de bonnes conception et qualité d’éxécution.
  • [10] Les habitations de ce type sont celles de qualité supérieure, meilleur finition, plus spacieuse et un meilleur agencement des pièces
  • [11] Conception personnalisée et finitions de qualité supérieure, avec ajout de mobilier en bois massif, de mobiliers fixatif dans les salles de bains et agréments de luxe.
  • [12] Conception personnalisée et excellents éxécutants. Tous les matériaux sont de qualités supérieurs, et toutes les commodités sont présentes
  • [13] Généralement, conception et construction personalisées. Proche du niveau du manoir. Important travail pour les cuisines. Grande quantité de plancher en bois et de marbre. Grandes entrées.

Restriction à Mercer Island

L’île Mercer fait partie des 100 unités territoriales les plus riches de l’état de Washington. Elle est reliée à la terre qui l’entoure par une voie routière la traversant. On peut l’étudier comme un microsome étant donné le lac qui la sépare de la terre. Comparé à Vashon Island qui ne possède pas de liason terrestre, elle est dynamique et urbanisée.Au sein du jeu de données complet, on peut noter de très grandes disparités territoriales qui ont un impact direct sur le type d’habitation et leurs valeurs. En choisissant un ensemble géographiquement homogène et bien plus petit, on espère pouvoir avoir des conclusions plus précises et faciles à découvrir. Cela doit être vu comme une première étape à l’analyse du jeu de données complet, que l’on ne peut pas mener à cause de contraintes temporelles et manque d’expérience.

Sommaire

Variables continues

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum
price 500000.000 822000.000 993750.000 1.1942e+06 1385500.000 5300000.000
bathrooms 1.000 2.250 2.500 2.7163e+00 3.250 6.750
sqft_living 820.000 2260.000 3020.000 3.1068e+03 3650.000 9640.000
sqft_lot 3700.000 9870.250 11951.500 1.3704e+04 15740.500 92347.000
floors 1.000 1.000 1.500 1.5053e+00 2.000 3.000
sqft_above 770.000 1692.500 2265.000 2.4743e+03 3180.000 5770.000
sqft_basement 0.000 0.000 535.000 6.3250e+02 1100.000 4820.000
lat 47.526 47.542 47.562 4.7560e+01 47.576 47.593
long -122.251 -122.232 -122.225 -1.2223e+02 -122.216 -122.204
sqft_living15 1590.000 2390.000 2875.000 2.8987e+03 3380.000 4620.000
sqft_lot15 3776.000 10083.000 11664.500 1.2801e+04 15290.750 36563.000

Variables factorielles ou discrètes

bedrooms

Valeurs 2 3 4 5 6 7
Décompte 4 74 126 68 8 2

view

Valeurs 0 1 2 3 4
Décompte 186 23 33 28 12

grade

Valeurs 1 3 4 5 6 7 8 9 10 11 12 13
Décompte 0 0 0 0 5 31 74 73 63 31 5 0

condition

Valeurs 1 2 3 4 5
Décompte 0 2 99 138 43

waterfront

Valeurs 0 1
Décompte 270 12

Variables temporelles

Sans valeurs manquantes

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum
yr_built 1916-01-01 1960-01-01 1968-01-01 1971-06-22 1980-01-01 2015-01-01
date 2014-05-06 2014-06-30 2014-09-22 2014-10-18 2015-02-23 2015-05-12

Avec valeurs manquantes

Minimum 1er Quartile Médiane Moyenne 3e Quartile Maximum Valeurs Manquantes
yr_renovated 1970-01-01 1990-01-01 2000-01-01 1996-01-01 2005-01-01 2012-01-01 249

Répartition géographique

Inégalités

Valeur

Surface habitée

Antérieurement à 2015

En 2015

Surface terrain

Antérieurement à 2015

En 2015

Corrélation linéaire

Réaménagements

Surface Habitable

Surface du terrain

Lien entre aménagement de la surface intérieure et extérieure

Lien entre aménagement de la surface intérieure et surface initiale du terrain

Harmonisation de la surface intérieure et la surface extérieure

Géographiquement

Surface habitable

Surface du terrain

Impact des caractéristiques du logement sur le prix

Surface habitable

En 2015

Avant 2015

Surface du terrain

En 2015

Avant 2015

Utilitaires

Salles de bain

Salles à coucher

Audit

Grade

Condition

Temps

Année de construction

Année de rénovation

Date de vente

Réaménagements

Surface habitable

Surface du terrain

Une valeur anormalement grande a été retiré du premier graphe en raison d’une valeur de \(sqft\_lot\) très éloignée du nuage (supérieur à 75000).

Autres

## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view, data = M)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.7788 -0.1018  0.0064  0.1102  0.3912 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.29e+01   5.86e-02  220.50  < 2e-16 ***
## sqft_living    2.02e-04   1.94e-05   10.40  < 2e-16 ***
## sqft_living15  6.04e-05   2.22e-05    2.72   0.0069 ** 
## sqft_basement -1.26e-04   1.92e-05   -6.57  2.5e-10 ***
## bathrooms      7.02e-02   2.19e-02    3.20   0.0015 ** 
## waterfront1    4.22e-01   6.05e-02    6.98  2.2e-11 ***
## view           7.24e-02   1.24e-02    5.83  1.6e-08 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.175 on 275 degrees of freedom
## Multiple R-squared:  0.814,  Adjusted R-squared:  0.81 
## F-statistic:  201 on 6 and 275 DF,  p-value: <2e-16

## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view, data = M %>% filter(!outliers))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.3668 -0.1014  0.0009  0.1002  0.3832 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.29e+01   5.20e-02  248.02  < 2e-16 ***
## sqft_living    2.15e-04   1.73e-05   12.39  < 2e-16 ***
## sqft_living15  4.87e-05   1.98e-05    2.45    0.015 *  
## sqft_basement -1.30e-04   1.72e-05   -7.54  7.3e-13 ***
## bathrooms      7.78e-02   1.96e-02    3.97  9.3e-05 ***
## waterfront1    4.00e-01   5.37e-02    7.45  1.3e-12 ***
## view           7.23e-02   1.10e-02    6.57  2.6e-10 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.155 on 270 degrees of freedom
## Multiple R-squared:  0.856,  Adjusted R-squared:  0.852 
## F-statistic:  266 on 6 and 270 DF,  p-value: <2e-16
## 
## Call:
## lm(formula = log(price) ~ sqft_living + sqft_living15 + sqft_basement + 
##     bathrooms + waterfront + view + yr_built, data = M %>% filter(!outliers))
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -0.3718 -0.0994  0.0063  0.1031  0.3825 
## 
## Coefficients:
##                Estimate Std. Error t value Pr(>|t|)    
## (Intercept)    1.30e+01   5.65e-02  229.34  < 2e-16 ***
## sqft_living    2.00e-04   1.80e-05   11.11  < 2e-16 ***
## sqft_living15  4.92e-05   1.96e-05    2.51   0.0126 *  
## sqft_basement -1.14e-04   1.79e-05   -6.38  7.7e-10 ***
## bathrooms      6.50e-02   1.99e-02    3.26   0.0012 ** 
## waterfront1    4.38e-01   5.48e-02    7.99  3.9e-14 ***
## view           7.25e-02   1.09e-02    6.67  1.5e-10 ***
## yr_built       5.36e-06   1.94e-06    2.77   0.0060 ** 
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 0.153 on 269 degrees of freedom
## Multiple R-squared:  0.86,   Adjusted R-squared:  0.856 
## F-statistic:  235 on 7 and 269 DF,  p-value: <2e-16

Louie l’orang-outan